在本文中,我们介绍了从包含超过80,000个小时的未标记的语音的大型数据集预处理捷克单语音频变压器方面的进展,随后使用内域数据组合对自动语音识别任务进行微调,并对模型进行微调。6000小时的跨域转录语音。我们在两个公共数据集(CommunVoice和Voxpopuli)和Malach Project中的一个非常具有挑战性的数据集中评估了各种微调设置的大量实验调色板。我们的结果表明,单语WAV2VEC 2.0模型是强大的ASR系统,它可以利用大型标记和未标记的数据集并成功与最先进的LVCSR系统竞争。此外,当没有用于目标ASR任务的培训数据时,WAV2VEC模型被证明是很好的零射门学习者。
translated by 谷歌翻译
With the development of depth sensors in recent years, RGBD object tracking has received significant attention. Compared with the traditional RGB object tracking, the addition of the depth modality can effectively solve the target and background interference. However, some existing RGBD trackers use the two modalities separately and thus some particularly useful shared information between them is ignored. On the other hand, some methods attempt to fuse the two modalities by treating them equally, resulting in the missing of modality-specific features. To tackle these limitations, we propose a novel Dual-fused Modality-aware Tracker (termed DMTracker) which aims to learn informative and discriminative representations of the target objects for robust RGBD tracking. The first fusion module focuses on extracting the shared information between modalities based on cross-modal attention. The second aims at integrating the RGB-specific and depth-specific information to enhance the fused features. By fusing both the modality-shared and modality-specific information in a modality-aware scheme, our DMTracker can learn discriminative representations in complex tracking scenes. Experiments show that our proposed tracker achieves very promising results on challenging RGBD benchmarks. Code is available at \url{https://github.com/ShangGaoG/DMTracker}.
translated by 谷歌翻译
本文介绍了我们对CRAC 2022关于多语言核心分辨率的共享任务的方法。我们的模型基于最新的端到端核心分辨率系统。除了加入多语言培训之外,我们还通过提及头部预测提高了结果。我们还试图将依赖性信息集成到我们的模型中。我们的系统最终以$ 3^{rd} $ place。此外,我们在13个数据集中达到了最佳性能。
translated by 谷歌翻译
本文概述了与CRAC 2022研讨会相关的多语言核心分辨率的共享任务。共同的任务参与者应该开发能够识别提及并根据身份核心重点聚集的训练系统。Corefud 1.0的公共版本包含10种语言的13个数据集,被用作培训和评估数据的来源。先前面向核心共享任务中使用的串联分数用作主要评估度量。5个参与团队提交了8个核心预测系统;此外,组织者在共享任务开始时提供了一个基于竞争变压器的基线系统。获胜者系统的表现优于基线12个百分点(就所有语言的所有数据集而言,在所有数据集中平均得分)。
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势,但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中,我们介绍了从扫描文档图像中提取信息的OCRMiner系统,该系统基于文本分析技术与布局功能结合使用(半)结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档,即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成,该模块以(可能是错误的)基于字符的输出从标准OCR系统开始,并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR,该系统能够以90%的英语恢复发票数据,而捷克设置的发票数据为88%。
translated by 谷歌翻译
由于与传统的基于RGB的跟踪相比,多模式跟踪的能力在复杂的情况下更准确和健壮,因此获得了关注。它的关键在于如何融合多模式数据并减少模式之间的差距。但是,多模式跟踪仍然严重遭受数据缺乏症的影响,从而导致融合模块的学习不足。我们没有在本文中构建这样的融合模块,而是通过将重要性附加到多模式的视觉提示中,为多模式跟踪提供了新的视角。我们设计了一种新型的多模式及时跟踪器(Protrack),可以通过及时范式将多模式输入传递到单个模态。通过最好地利用预先训练的RGB跟踪器在大规模学习的跟踪能力,我们的突起即使没有对多模式数据进行任何额外的培训,我们的突起也可以通过更改输入来实现高性能多模式跟踪。 5个基准数据集的广泛实验证明了所提出的突起的有效性。
translated by 谷歌翻译
数码相机通过图像信号处理器(ISP)将传感器原始读数转换为RGB图像。诸如图像去噪和颜色恒定的计算摄影任务通常在原始域中进行,部分原因是由于固有的硬件设计,而且由于引起了由直接传感器读数导致的噪声统计的吸引力的吸引力。尽管如此,与可用RGB数据的丰富和多样性相比,原始图像的可用性有限。最近的方法已经尝试通过估计RGB对原始映射来弥合这个差距:可手工制作的基于模型的方法,这些方法通常需要手动参数微调,而端到端的学习神经网络需要大量的培训数据,有时与复杂的训练程序,并且通常缺乏解释性和参数控制。为了解决这些现有的限制,我们提出了一种基于混合模型的基于混合模型和数据驱动的ISP,其构建在规范ISP运营中,并且是学习和可解释的。我们所提出的可逆模型,能够在原始和RGB域之间双向映射,采用丰富的参数表示的端到端学习,即词典,即没有直接参数监督,另外启用简单且合理的数据增强。我们证明我们的数据生成过程的价值在原始图像重建和原始图像去噪任务下,在两者中获得最先进的性能。此外,我们表明我们的ISP可以从少数数据样本中学习有意义的映射,并且尽管只有少数或零地面标签,但基于大字典的数据增强训练的那种培训的培训模型是有竞争力的。
translated by 谷歌翻译
高动态范围(HDR)成像在现代数字摄影管道中具有根本重要性,并且尽管在图像上变化照明,但仍用于生产具有良好暴露区域的高质量照片。这通常通过在不同曝光时拍摄多个低动态范围(LDR)图像来实现。然而,由于补偿不良的运动导致人工制品如重影,过度暴露的地区和未对准误差。在本文中,我们提出了一种新的HDR成像技术,可以专门模拟对准和曝光不确定性以产生高质量的HDR结果。我们介绍了一种使用HDR感知的HDR感知的不确定性驱动的注意力映射来联合对齐和评估对齐和曝光可靠性的策略,该注意力映像鲁棒地将帧合并为单个高质量的HDR图像。此外,我们介绍了一种渐进式多级图像融合方法,可以以置换不变的方式灵活地合并任何数量的LDR图像。实验结果表明,我们的方法可以为最先进的高达0.8dB的PSNR改进,以及更好的细节,颜色和更少人工制品的主观改进。
translated by 谷歌翻译